基于 深度 学 习 文 本 情绪 挖掘 股市 相关 性 研究 
张 宸 瑞 
(华南 理工 大 学 经 济 与 金融 学 院 ， 广 州 510006) 

摘 要 : 探讨 如 何 对 股吧 等 金融 论坛 数据 进行 仆 取 并 结合 深度 学 习 模 型 进行 情感 分 
析 。 本 文 将 使 用 BERT 模型 针对 金融 语 料 进 行 训 练 ， 并 对 深 证 成 指 进行 对 比分 析 。 通 过 
最 大 互信 息 系 数 对 比 验证 , 发 现 将 BERT 模型 应 用 到 金融 语 料 中 所 得 到 的 情感 特征 能 够 
证 明 情绪 变量 在 一 定 程度 上 与 股票 价格 存在 一 定 相 关 性 。 同 时 本 文 是 深度 学 习 在 金融 环 
境 下 的 运用 。 在 通过 深度 学 习 的 方法 进一步 探究 投资 者 情绪 对 股票 市 场 的 影响 机 制 ， 将 
有 利于 国家 监管 部 门 和 政策 部 门 对 维持 股票 市 场 稳定 性 制定 更 加 合理 的 政策 方针 。 
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Abstract: We explore how to crawl financial forum data such as stock bars and combine it with 
deep learning models for sentiment analysis. In this paper, we will use the BERT model to train 
against the financial corpus and conduct a comparative analysis of the Shenzhen stock index. 
By comparing the maximum information coefficients (MIC), it is found that the sentiment 
features obtained by applying the BERT model to the financial corpus can prove that the 
sentiment variables are correlated with the stock prices to a certain extent. Also this paper is an 
application of deep learning in a financial context. In further exploring the mechanism of 
investor sentiment on the stock market through the deep learning approach, it will be beneficial 
for national regulators and policy departments to formulate more reasonable policy guidelines 
on maintaining the stability of the stock market. 
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一 、 问 题 的 提出 


股市 的 交易 实际 上 是 人 与 人 的 博弈 ， 而 这 种 博弈 也 是 不 少 学 者 正在 研究 的 方向 ， 在 
金融 领域 中 , 股票 价格 的 波动 也 牵动 着 大 家 的 心 , 20 世纪 70 年 代 , 美国 经 济 学 家 尤 金 法 
玛 提出 了 “有 效 市 场 假说 "， 假 说 认为 在 有 效 市 场 中 ,任何 时 刻 的 股票 价格 都 充分 准确 地 
反映 了 全 部 市 场 信息 。 在 20 世纪 80 年 代 后 ， 随 着 市 场 中 大 量 市 场 异 像 和 非 理 性 的 交易 
行为 的 出 现 , “有效 市 场 假说 ”受到 了 很 大 的 挑战 。 据 统计 A 股 股民 数量 已 达到 1.89 亿 ， 
这 是 一 个 非常 惊人 的 数字 ， 其 中 自然 人 (散户 ) 数量 达到 82% (数据 来 源 : 2018 上 海 证 
券 交 易 所 ) ， 个 人 散户 在 投资 领域 的 地 位 十 分 庞大 。 

根据 贺 行 知 (2021) [1] 的 结论 ， 从 我 国 股市 发 展 阶段 来 看 ， 我国 股 票 市 场 已 初步 具 
备 弱 有 效 性 市 场 的 基本 特征 ， 但 是 ， 股 市 存在 投资 者 利用 基本 面 消息 获取 超额 利润 的 现 
象 ， 股 市 并 非 半 强 有 效 市 场 。John MaynardKeynes (1936) 曾 指出 许多 经 济 活 动 都 受 " 动 
物 精神 "的 支配 ， 行 为 金融 也 依 此 营运 而 生 。Shiller(2017) 指 出 ，“ 随 着 研究 方法 的 推进 ， 
随 着 社交 媒体 数据 积累 的 增加 ， 文 本 分 析 将 成 为 未 来 几 年 经 济 学 领域 更 强 有 力 的 领域 。 
我 们 的 目标 是 推动 研究 朝 着 这 个 方向 发 展 。” 近 年来, 研究 投资 者 情绪 与 资产 定价 间 的 作 
用 关系 逐渐 成 为 热点 ， 研 究 主 要 包括 数据 的 选择 、 情 绪 的 提取 分 析 以 及 模型 的 构建 。 


二 、 文献 综述 与 研究 方法 评述 
(一 ) ”数据 的 选取 


早期 的 研究 主要 选取 结构 化 的 数据 来 间接 地 反映 投资 者 情绪 , 如 市 场 信 息 (开盘 价 、 
收盘 价 、 市 场 成 交 量 等 ) 、 经 济 指标 (宏观 经 济 指标 、 财 务 报表 数据 》 和 技术 指标 〈 简 
单 日 移动 平均 线 、 加 权 日 移动 平均 线 等 ) 随 着 近年 来 文本 挖掘 和 数据 分 析 技 术 的 提升 ， 
越 来 越 多 的 研究 开始 采用 可 直接 反映 投资 者 情绪 的 文本 类 非 结 构 化 数据 ， 如 新 闻 ( 财 经 
新 闻 、 普 通 新 闻 、 公 司 报道 等 ) 、 社 交 媒 体 (Twitter、Facebook、 微 信 ( 石 善 冲 ，2018) 
[2]、 微 博 、 博 客 、 股 吧 论 坛 等 ) 。 由 于 数据 的 易 提取 性 和 预测 结果 的 准确 性 ， 使 用 股市 
数据 和 技术 指标 的 研究 还 是 占据 主流 , 但 是 利用 社交 媒体 数据 进行 研究 的 趋势 在 渐渐 兴 
起 。 未 来 ， 将 社交 媒体 数据 与 股市 数据 及 指标 相 结 合 将 会 是 一 个 很 好 的 研究 方向 
(Bustos,2020)。 


(二 ) ”情绪 提取 与 分 析 


对 于 结构 化 数据 ， 首 先是 运用 市 场 指标 来 代理 人 气 ， 如 交易 量 、 封 闭 式 基金 折扣 、 
首次 公开 发 行 (IPO) 当日 回报 等 。 可 以 说 , 最 具 影 响 力 的 衡量 标准 是 (Baker & Wurgler 
(2006) ) 的 投资 者 情绪 指数 ， 该 指数 是 六 个 基于 市 场 的 代理 的 主要 组 成 部 分 。 第 二 种 
方法 是 以 调查 为 基础 。 热 门 的 消费 指数 包括 密歇根 大 学 消费 者 情绪 指数 和 瑞 银 / 盖 洛 普 
投资 者 乐观 指数 。 对 于 非 结 构 化 的 文本 数据 ， 则 主要 通过 基于 词典 与 规则 的 文字 包 技 术 


CTF-IDF) 和 机 器 学 习 方法 〈 如 word2vec (Mikolov，2013) ) [3] 从 文本 中 提取 出 投资 
者 情绪 ， 并 以 积极 、 中 立 、 消 极 等 方式 进行 分 类 。 目 前 ， 在 学 术 界 还 没有 公认 的 投资 者 


(三 ) ”情绪 预测 模型 


情绪 衡量 指标 , 如 何 更 好 地 提取 和 衡量 投资 者 情绪 还 仍 需 不 断 探索 (唐国 坚 , 2016) [4]。 


近 些 年 来 ， 机 器 学 习 算法 越 来 越 多 地 应 用 到 预测 模型 中 ， 如 支持 向 量 机 (SVM) 、 
人 工 神 经 网 络 (ANN) 、 贝 叶 斯 模型 以 及 深度 学 习 〈 主 要 有 CNN、ELM、LSTM、DBN 
等 方法 ) 日 益 普 及 。 深 度 学 习 是 人 工 神经 网 络 的 一 个 子 集 ， 但 不 同 于 传统 的 机 器 学 习 算 
法 ， 它 不 需要 对 数据 进行 预 处 理 和 提取 特征 。 (Kraus & Feuerriegel 2017) 研究 发 现 深度 
学 习 算 法 对 传统 的 神经 网 络 算法 在 股市 预测 上 有 更 高 的 准确 度 。 利用 机 器 学 习 的 研究 中 ， 
支持 向 量 机 方法 仍 被 广泛 应 用 , 但 深度 学 习 算 法 的 应 用 在 未 来 很 长 一 段 时 间 内 会 是 股市 


预测 的 研究 热点 (Bustos，2020) 。 
数据 的 选取 
(一 ) ”文本 数据 的 选取 


本 文通 过 Python 礁 取 东方 财富 网 ! 股 吧 (zssz399001) 2019 年 1 


月 1 日 至 2020 年 


12 月 31 日 的 股吧 数据 ， 我 们 横向 对 比 了 个 股 以 及 指数 股吧 数据 ， 最 终 选择 了 深 证 成 指 
的 股吧 ， 相 比 上 证 综 指 以 及 其 他 指数 股吧 数据 ， 其 数据 量 更 充足 ， 浏 览 人 数 更 多 更 能 代 


表 绝 大 多 数 股 民 的 想法 ， 其 次 ， 深 证 成 指 包括 深圳 证 券 交 易 所 上 市 的 具有 一 定 规模 性 、 
优质 的 500 家 上 市 公司 的 股票 。 深 证 成 指 的 编制 也 是 抽取 了 各 个 行业 板块 的 股票 ， 因 此 
深 证 成 指 能 够 很 好 的 反映 出 深 市 的 股票 情况 。 在 数据 的 处 理 上 ， 本 文 遵循 文 本 分 析 的 标 
准 , 删除 重复 的 数据 , 删除 非 文 本 项 目 如 编码 图 像 、 表 格 、HTML 标签 和 表情 符号 等 。 


"根据 iResearch 2018 年 的 一 份 分 析 报 告 指出 ， 东 方 财富 网 是 中 国 顶 级 金融 网 站 。 每 月 有 效 浏览 时 间 为 7800 万 


小 时 ， 占 市 场 份额 的 45%， 高 于 前 10 家 公司 中 其 余 9 家 公司 的 总 和 。 


表 1 每 日 评论 统计 汇总 信息 


时 间 评论 阅读 量 ”评论 数 网 页 来 源 
http:/guba.eastmoney.co 
-9- 今天 抄 万 外 
Ce 今天 抄底 夹 丰 在 了 4 0 ew zn00l.9634 
创业 板 公司 亚 光 科技 : 股东 合计 减 持 http://euba.eastmoney.co 
2020-9-9 ”25% 的 股份 ， 这 不 是 在 减 持 ， 分 明 是 在 793 1 m/news,zssh000001,9634 
找 人 接盘 准备 06436.html 
如 果 我 专心 玩 白银 可 能 都 不 会 输 这 人 么 http:/guba.eastmoney.co 
2020-9-9 惨 ， 去 年 账户 上 的 8 万 现在 只 有 2 万 317 3 m/news,zssz399001,9634 
hs 00740.html 
i 区 http:/guba.eastmoney.co 
美 哥 跌 耶 ， 我 也 跌 耶 ， 我 比美 哥 跌 得 黑 
2020-9-9 好 301 3 m/news,zssz399001,9634 
04635.html 
炒 小 、 差 是 投资 者 最 基本 的 选择 权利 ， http://guba.eastmoney.co 
2020-9-9 关键 是 违规 违法 没有 ， 既 然 规则 已 制 183 0 m/news,zssz399001,9634 
定 ， 如 果 没 有 违 则 涨 跌 应 该 交 给 市 场 02753.html 
从 表 1 所 得 到 的 统计 信息 可 以 看 出 , 每 天 平均 评论 标题 长 度 为 22.8 个 字符 ， 从 表 中 


可 以 看 出 ， 内 容 呈 右 偏 分 布 。 与 传统 的 《相对 较 短 的 ) 评论 不 同 的 是 ， 股 吧 中 数据 一 些 
很 长 的 消息 经 常 被 从 其 他 来 源 复 制 和 粘贴 ， 如 新 闻 报 道 和 分 析 报 告 。 我 们 使 用 简单 的 处 


am 


得 


来 消除 这 些 潜在 的 潜在 影响 离 群 值 ， 仅 保留 少 于 150 个 汉字 的 消息 。 此 外 考虑 到 每 


日 评论 数 参 差 不 齐 以 及 降低 不 同 阅读 量 对 结果 的 影响 ， 我 们 选择 了 按 阅 读 量 排序 ， 由 高 
到 低 每 日 选取 了 前 50 条 数据 进行 研究 。 


表 2 经 预 处 理 的 股吧 评论 文本 格式 


Mean S.D Skewness Min Max Count 


数据 长 度 〈( 字 符 ) 22.86383 13.40368 0.126406 2 66 32298 


注 : 此 表 为 每 天 评论 长 度 的 汇总 统计 信息 。 每 个 变量 的 样本 均值 、 标 准 差 (S.D.) 、 最 大 最 小 数 和 评论 


总 数 。 该 


本 包含 2019 年 1 月 1 日 至 2020 年 12 月 31 日 样本 期 内 深 证 成 指 股吧 评论 数据 。 


(二 ) ”股票 交易 数据 的 选取 


本 文选 取 深 证 成 指 作 为 研究 对 象 ， 其 中 选取 每 日 交易 数据 进行 研究 ， 包 括 当 天 的 收 
盘 价 、 开 盘 价 、 最 高 价 、 最 低 价 、 昨 收 价 、 涨 跌 额 、 涨 跌幅 、 成 交 量 、 0 
数据 的 具体 格式 如 表 3 所 示 。 本 文通 过 开源 的 Python 数据 API 一 一 Tushare” 获 取 ， 

的 结果 为 Pandas.DataFrame 数据 类 型 


表 3 未 经 过 归 一 化 处 理 的 行情 数据 
日 期 收盘 价 “开盘 价 最 高 价 。 最 低 价 昨 收 价 涨 跌 额 ” 涨 跌幅 ”成 交 量 成交 额 


20201231 14470.68 14226.28 14476.55 14226.28 14201.57 269.1178 1.895 3.72E+08 5.11E+08 
20201230 14201.37 13970.45 14208.68 13968.09 13970.21 231.3549 1.6561] 3.52E+08 4.69E+08 
20201229 13970.21 14042.79 14082.5 13915.89 14044.1 -73.89 -0.526] 3.72E+08 4.78E+08 
20201228 14044.1 14020.95 14112.59 13959.14 14017.06 27.0435 0.1929 3.73E+08 4.83E+08 
20201225 14017.06 13879.24 14017.06 13835.52 13915.57 101.4832 0.7293 3.38E+08 4.35E+08 


资料 来 源 : Tushare,http://tushare.org/。 


日 于 各 种 数据 间 的 量 纲 可 能 不 同 ， 因 此 我 们 需要 进行 对 数据 进行 归 一 化 处 理 以 保证 
数据 在 各 个 模型 训练 中 保持 一 致 的 分 布 。 归 一 化 的 方法 我 们 使 用 离 差 标准 化 (Min-Max 
Normalization)(Patro 等 ，2015)[5]。 主 要 是 将 特征 映射 到 [0,1] 之 间 ， 具 体 公 式 如 下 : 


EE 


XxX— min(x) 


和 


max(x) — min(x) 


表 4 离 差 标准 化 处 理 的 行情 数据 
日 期 ”收盘 价 ”开盘 价 ”最 高 价 “最低 价 “” 昨 收 价 ” 涨 跌 额 ” 涨 跌 幅 ”成 交 量 ”成交 额 
20201231 1.00000 1.00000 1.00000 1.00000 1.00000 0.83034 0.73689 0.36816 0.44054 
20201230 0.96354 0.96449 0.96310 0.96421 0.96747 0.80357 0.71986 0.33501 0.39241 
20201229 0.93220 0.97453 0.94571 0.95698 0.97786 0.58719 0.56437 0.36716 0.40181 
20201228 0.94221 0.97150 0.94986 0.96297 0.97406 0.65874 0.61560 0.36985 0.40789 
20201225 0.93854 0.95183 0.93670 0.94584 0.95979 0.71151 0.65382 0.31269 0.35237 


资料 来 源 : Tushare,http://tushare.org/。 


”Tushare 是 一 款 基 于 Python 语言 的 开源 财经 数据 接口 包 , 主要 实现 对 股票 等 金融 数据 从 数据 采集 、 清 洗 加 工 到 数 
据 存储 的 过 程 , 能 够 为 金融 分 析 人 员 提 供 快速 、 整 洁 和 多 样 的 便于 分 析 的 数据 。 


四 、 对 实体 文本 的 情感 分 析 


文本 情绪 感念 提出 (Bo Pang，2002) [6] 后 ， 早 期 对 于 文本 情绪 的 度量 主要 在 构建 情 
感 词典 法 ， 将 文章 中 经 常 出 现 的 表达 情感 的 词 进行 赋 分 ， 并 将 其 编纂 成 字典 ， 通 过 使 用 
字典 对 文章 的 匹配 进行 打分 ， 这 种 方法 通用 性 较 强 ， 游 王 靖 一 与 黄 益 平 在 金融 科技 语 境 
下 构建 情感 词典 ,根据 正 负 向 情感 词汇 在 文章 中 出 现 的 频数 、 正 负 向 情感 词典 中 词 的 数量 
等 指标 分 别 对 报道 中 的 情感 词 赋予 不 同 的 权重 ,之 后 计算 每 篇 报道 中 的 正 负 情感 指数 ,并 
通过 直接 加 总 获得 报道 的 净 情 感 指数 [7]。 

相 较 于 情感 词典 法 更 加 主观 的 赋 分 以 及 分 类 ， 机 器 学 习 法 更 加 客观 同时 在 不 同 领域 
的 文本 分 析 研 究 中 有 较 好 的 表现 , 机 器 学 习 法 的 首要 任务 就 是 构造 语料库 。Al-Nasseri 与 
Ali 将 所 选 的 公司 在 论坛 中 的 与 其 公司 有 关 的 新 闻 文 本 资讯 ， 使 用 朴素 贝 叶 斯 、 决 策 树 
以 及 支持 向 量 机 (SVM) 算法 在 软件 中 所 训练 的 模型 来 预测 [8]。Pawar 等 人 将 递归 神经 
网 络 (RNN) 与 长 短期 记忆 单元 (LSTM) 相 结合 对 股市 进行 预测 并 与 传统 的 支持 向 量 
机 、 朴 素 贝 叶 斯 分 类 器 相 比 较 [9]。 

(一 ) ”模型 设计 

深度 学 习 时 代 中 的 NLP (自然 语言 处 理 ) 预 训 练 工作 广泛 使 用 词 嵌 入 〈Word 
Embedding) ， 使 用 深度 学 习 模 型 进行 训练 的 时 候 ， 会 将 所 训练 的 次 转化 为 词 向 量 作为 
神经 网 络 的 输入 层 ， 而 在 深度 学 习 模 型 训练 的 过 程 中 ,训练 结果 的 好 坏 程 度 很 大 程度 取 
决 于 训练 集 的 大 小 ， 较 大 的 训练 集 可 以 训练 出 较 好 的 词 向 量 ， 目 前 在 自然 语言 处 理 领 域 
绝 大 部 分 的 任务 模型 都 会 采用 训练 好 的 词 向 量 。 在 词 癌 量 的 训练 过 程 中 ， 词 向 量 忽 略 了 
上 下 文 的 表意 ， 当 词汇 出 现 一 词 多 义 的 情况 ， 往 往 对 应 的 是 相同 的 词 向 量 ， 这 是 不 合理 
的 ， 因 此 ，2018 年 Devlin 等 人 提出 预 训练 语言 模型 BERT， 一 问世 即 刷 新 了 11 个 NLP 
任务 的 榜 单 ， 是 NLP 领域 前 进 的 一 大 步 [10]。BERT 模型 的 结构 如 图 1 所 示 ， 其 中 
E1,E2,...,EN 是 模型 的 输入 字符 ， 输 入 字符 通过 双向 的 Transformer 特征 提取 器 获取 文本 
特征 ， 输 入 字符 训练 后 输出 相应 的 向 量 Ti,T2,…,TN。 


图 1 BERT 模型 结构 


如 图 2，BERT 作为 一 个 所 有 层 都 能 够 结合 上 下 文 语义 进行 训练 的 模型 ， 其 输入 由 
字 肉 入 (Token Embeddings) 、 上 段 柑 入 《Segment Embeddings) 以 及 位 置 傣 入 〈Position 
Embeddings) 三 个 向 量 组 成 , 与 此 同时 , BERT 采用 的 是 MLM 模型 (遮盖 语言 模型 ) ， 
MLM 通过 遮盖 〈Mask) 一 部 分 字 ， 类 似 填 空 ， 然 后 去 预测 被 遮盖 的 模型 ， 通 过 迭代 来 
达到 上 下 文 训 练 的 目的 。 


CIEIECIIEIIESIEIIECICOECIIECIIEC 
Token 
ee 生生 于 二 生生 和 生生 全 生 


中 中 
yo 本 
Embeddings 
中 中 中 中 
Position 


图 2 BERT 模型 的 训练 方式 
(二 ) “基于 金融 语 料 的 模型 训练 
BERT 本 质 上 是 一 个 两 段 式 的 NLP 模型 。 第 一 个 阶段 叫做 : Pre-training( 预 训练 ) ， 
利用 现 有 无 标记 的 语 料 训 练 一 个 语言 模型 ， 该 阶段 十 分 耗 时 ， 且 对 算 力 要 求 极 高 通常 需 
要 4 到 16 个 云 TPU 计算 4 天 以 上 时 间 ， 由 于 受 硬件 限制 以 及 对 准确 度 的 要 求 ， 我 们 选 
取 哈 工大 讯 飞 联 合 实验 室 发 布 基于 全 词 履 盖 (Whole Word Masking, wwm) 的 中 文 BERT 
预 训 练 模 型 Chinese-BERT-wwm 作为 预 训练 模型 。 第 二 个 阶段 叫做 :Fine-tuning( 微 调 )， 


利用 预 训 练 好 的 语言 模型 ， 完 成 具体 的 NLP 下 游 任 务 。Pre-training 的 训练 成 本 很 大 ， 
而 Fine-tuning 成 本 相对 较 少 。 我 们 正 是 在 本 地 上 ， 采 取 Fine-tuning， 使 用 金融 语 料 对 
BERT 模型 进行 训练 。 

语 料 在 经 过 分 词 后 输入 Encoder 模块 得 到 转化 后 的 索引 ， 从 而 得 到 每 一 个 词 的 词 向 
量 ， 这 与 jieba 等 分 词 工具 的 分 词 不 同 ， 例 如 : “看 来 进入 牛市 了 ， 大 盘 大 涨 ， 能 带动 投 


由 | 


资 情绪 上 涨 ” 这 人 句 话 分 词 之 后 会 得 到 : [看 ， 来 ， 进 ， 入 ， 牛 ， 市 ， 了 了， 大 ， 盘 ， 大 ， 涨 ， 
能 ， 带 ， 动 ， 投 ， 资 ,， 情 ， 绪 ， 上 ， 涨 ]， 从 而 将 词 与 BERT 预 训练 模型 中 的 语 料 表 结合 


起 来 ， 在 本 文 实验 中 ， 将 最 大 词 序列 长 度 设置 为 128 位 ， 未 满 128 位 的 将 使 用 0 进行 填 
充 ， 同 时 在 句子 的 开头 和 结尾 添加 [CLS] 与 [SEP] 标 签 。 在 BERT 输入 句子 完成 转化 后 ， 
有 两 个 训练 方式 ， 分 别 是 Masked LM 和 Next Sentence Prediction (NSP) 下 一 句 预测 。 


1. Masked LM 


BERT 训练 中 在 句子 中 使 用 [MASK] 蔡 换 一 部 分 词语 , 来 使 模型 利用 上 下 文 进行 预测 ， 
以 “看 来 进入 牛市 了 ， 大 盘 大 涨 ， 能 带动 投资 情绪 上 涨 ” 为 例子 ， 有 80% 的 概率 将 句子 
转变 为 “看 来 进入 牛市 了 ， 大 盘 大 [MASK]， 能 带动 投资 情绪 上 涨 ”， 将 句子 中 的 涨 用 
[MASK] 代 蔡 ， 有 10% 的 概率 保持 句子 不 变 ， 也 有 10% 的 概率 将 “ 涨 ” 用 其 他 词 代 蔡 例 
如 : “看 来 进入 牛市 了 ， 大 盘 大 跌 ， 能 带动 投资 情绪 上 涨 ”。 这 样 8:1:1 的 蔡 换 策略 主 
要 是 为 了 避免 在 后 续 的 使 用 出 现 [MASK] 的 单词 ， 从 而 导致 性 能 受到 影响 。 


2. 下 一 句 预 测 (NSP) 


BERT 训练 中 第 二 个 任务 为 下 一 句 预测 ， 这 样 做 的 目的 也 是 为 了 让 模型 在 有 监督 学 
习 下 ， 能 够 结合 上 下 文 语义 进行 任务 ， 同 样 以 “看 来 进入 牛市 了 ， 大 各 大 涨 ， 能 带动 投 
资 情绪 上 涨 ” 为 例子 , 在 训练 过 程 中 , 有 50% 的 概率 将 句子 选择 相连 的 两 个 句子 :“[CLS] 
看 来 进入 牛市 了 ， 大 盘 大 涨 ， 能 带动 投资 情绪 上 涨 [SEP] 沪 深 两 市 翻 红 [SEP]”， 同 时 也 
有 50% 的 概率 选择 不 相关 的 句子 连接 : “[CLS] 看 来 进入 牛市 了 ， 大 盘 大 涨 ， 能 带动 投 
资 情绪 上 涨 [SEP] 美 股 受 大 挫 [SEP]”， 同 时 在 标签 中 输出 “和 否 ”。 


3. 使 用 金融 语 料 进行 Fine-tuning 


BERT 在 完成 预 训 练 后 ， 可 将 其 用 于 金融 实体 情感 识别 的 任务 ， 在 情感 分 析 中 [CLS] 
将 作为 下 一 网 络 的 输出 , 根据 金融 文本 的 特殊 性 , 使 用 带 情 感 标注 的 金融 文本 进行 Fine- 
tuning， 就 可 以 训练 出 在 金融 等 特定 领域 精度 更 高 的 模型 。 


五 、 实验 与 分 析 
(一 ) ”实验 环境 


实验 环境 如 表 5 所 示 。 


开发 环境 


表 5 实验 环境 


参数 


GPU 
内 存 
操作 系统 
深度 学 习 框架 


编程 工具 


(二 ) ”数据 集 


R7-3750H(2.30GHz) 
GTX1660Ti 6GB 
16GB 
Windows 10 64 位 
TensorFlow 


PyCharm 


本 文选 用 所 把 取 的 2019 年 1 月 1 日 至 2019 年 12 月 30 日 的 数据 , 进行 人 工 情绪 的 
标注 , 本 文 使 用 三 分 类 对 情绪 进行 标注 如 表 6 所 示 , 0 表示 负 向 情绪 、1 表示 中 性 情绪 、 
2 表示 正 向 情绪 ， 并 对 文本 按 8:2 的 比例 划分 训练 集 及 测试 集 ， 进 行 训练 。 


表 6 情绪 分 类 符号 表示 


负 向 中 性 正 向 
0 1 2 
(三 ) ”参数 设 定 


本 文 模 型 选用 工大 讯 飞 联合 实验 室 发 布 的 chinese roberta wwm large ext L-24 _H- 
1024 A-16(24-layer, 1024-hidden, 16-heads) 预 训练 模型 ， 即 采用 24 层 Transformer， 隐 
层 维度 为 1024， 多 头 注意 力 的 参数 为 16， 参 数 模 型 总 大 小 为 330MB。 模 型 训练 方面 批 
次 大 小 (batch size) 为 16, 学 习 率 (learning rate) 为 2e-5, 序列 最 大 长 度 (max seq length) 


为 128。 
(四 ) ”模型 训练 结果 


训练 结果 为 准确 度 为 0.7553， 损 失 为 0.6558， 如 图 7 是 预测 结果 的 部 分 样 例 ， 如 图 
3 是 根据 训练 的 模型 对 2020 年 1 月 1 日 至 2020 年 12 月 31 日 的 评论 数据 的 预测 ， 可 以 
看 出 负 问 的 情绪 居多 ， 中 性 的 情绪 很 少 。 


表 7 部 分 样 例 数据 


时 间 评论 情感 ”属于 积极 的 概率 ”属于 消极 的 概率 

北上 今天 净 流 入 60 亿 ， 尾 盘 猛 进 二 十 

2020-6-9 0.938666 0.0613335 

亿 ， 明 天 大 盘 无 忧 ! 

2020-6-9 大 跌 正 式 开始 0 0.00298048 0.99702 
三 家 财务 造假 ， 暴 风 集 团 ， 东 方 金 

2020-6-9 四 机 0 0.0382706 0.961729 

钰 ， 长 城 影视 ， 股 价 跌停 


10k 


4k 


0.0 1.0 


图 3 2020 年 数据 分 布 
(五 ) ”实证 研究 
1. 情绪 数据 的 相关 计算 
对 于 每 天 有 多 条 数据 ， 本 文 使 用 对 数据 按 日 期 分 类 进行 处 理 的 公式 如 下 : 


sentimentr = Pyositive 十 (一 1) * Pnegative (2) 


1 sentiment 
emotions! = 人 (3) 
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其 中 ，sentimentt 表示 每 一 条 评论 的 情感 得 分 ，Ppositive、Pnegative 分 别 表示 该 条 
情绪 为 积极 或 消极 的 概率 ， 情 绪 指 数 emotionsT 表示 在 工 日 内 所 有 情绪 情感 得 分 的 平均 
数 ，emotionsTE (0,1) 。 若 emotionsT 趋 近 于 0， 则 说 明 市 场 情绪 消极 ， 若 emotionsT， 
趋 近 于 1 则 说 明 市 场 情绪 积极 。 

同时 由 于 各 种 数据 间 的 量 纲 可 能 不 同 , 因此 我 们 需要 进行 对 数据 进行 归 一 化 处 理 以 
保证 数据 在 各 个 模型 训练 中 保持 一 致 的 分 布 ， 因 此 本 实验 数据 使 用 公式 (1) 进行 归 一 化 
处 理 。 


10- 


0.8- 


0.6- 


0.2- 


0.0- 


图 4 市 场 情 绪 与 股价 归 一 化 处 理 结果 
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由 图 4 可 以 看 出 , 情绪 指数 与 股价 关系 不 是 很 明显 , 本 实验 按照 时 间 窗 大 小 为 30， 


每 个 窗口 最 少 包 含 的 观测 值 数量 为 1 并 对 数据 Sentiment 和 Price 数据 进行 平滑 处 理 , 求 
出 Sentiment 和 Price 数据 的 30 日 均线 ， 计 算得 出 的 avg_Sentimen 和 avg_Price 代 蔡 原 
来 的 Sentiment 和 Price， 结 果 如 图 5 所 示 ， 在 市 场 情 绪 随 着 股票 价格 呈现 同 向 波动 。 


一 一 Sentiment 
-1 一 一 一 Price 
Sy Sy Sy Ry > Sy 
DP oD D (oe BD D dy 
人 个 个 个 中 个 个 
Date 


图 5 市 场 情绪 与 股价 平滑 处 理 结果 


jE 


2. 基于 最 大 互信 息 系 数 研究 变量 的 相关 性 
(1) 最 大 信息 系数 理论 


2011 年 哈佛 大 学 的 David N. Reshef 等 人 [11] 提 出 了 最 大 信息 系数 (Maximal 
information coefficient)， 简 称 MIC, MIC 是 衡量 变量 之 间 相 互 依存 关系 的 一 个 很 好 的 测 
度 ， 它 具有 两 个 重要 属性 : 广泛 性 和 公平 性 。MIC 的 广泛 性 是 指 它 在 多 样本 情况 下 对 于 
多 种 函数 关系 都 敏感 ， 可 以 检测 出 多 种 关系 类 型 ， 例 如 非 函 数 关系 和 多 种 函数 关系 合成 
的 超 函 数 关 系 等 。MIC 的 均匀 性 是 指 当 在 不 同 的 关系 类 型 中 加 入 相同 的 噪声 时 ,它们 之 
间 的 MIC 值 是 相近 的 ;， 反之 ， 当 计算 出 两 个 变量 MIC 值 相似 或 者 相等 时 ， 对 于 加 入 的 
噪声 程度 的 值 也 相近 

(2) MIC 的 处 理 过 程 [12 
给 定 有 限 有 序 的 数据 集 义 = {x1,x2,x3,…,xn}， 如 果 将 x 轴 划 分 为 x 个 格子 , y 轴 划 分 
为 y 个 格子 ， 那 么 就 可 以 得 到 一 个 xxy 的 网 格 划分 G， 其 中 x，y 是 正 整数 ， 将 落 入 G 
的 点 的 数量 占 X 数量 的 比例 看 作 是 其 概率 密度 XIG, 而 根据 不 同 的 网 格 划 分 情况 得 到 的 
概率 分 布 XIG 也 不 同 。 在 X= {x1,x2,x3,…,xn} 中， 两 变量 xi 和 xj 之 间 的 互信 息 可 以 定义 


p(Ti, xj) 
T(zi, 7j) = >》， 2 P(zi 3) log2( -2 0 ) (4) 


IiEX Lj€ p(xj) 
在 x，y 给 定 的 情况 下 ， 若 改变 x,，y 的 值 ， 得 到 的 互信 息 值 也 会 发 生变 化 ， 记 录 其 
中 最 大 的 互信 息 值 为 1(X,xi,xj)。 然后 执行 归 一 化 以 比较 不 同 维 数 下 的 数据 集 ， 并 且 归 一 
化 后 的 值 在 [0,1] 之 间 。 通 过 更 改 x，y 的 值 ， 可 以 获得 变量 之 间 归 一 化 后 的 互信 息 值 特 
征 秆 了 泗 。 特 征 和 矩阵 的 最 大 值 是 两 个 变量 之 间 的 最 大 信息 系数 MIC 值 。 


X={X1,X2,x3,…,xn} 样 本 容量 取 值 为 n， 网 格 化 的 分 数 取 值 小 于 B(n)。 则 最 大 信息 系 
数 可 以 定义 为 : 


I(X,zi,r;) 
M(X)z,z, 一 log(min{z:,z;}) (5) 
MIC(X) = max zy<Bln) {(M(X)zy} (6) 


式 中 ，x,y 是 在 x 轴 y 轴 方 向 上 的 划分 格子 的 个 数 ， 也 就 是 网 格 分 布 ， 其 中 Bn) 是 
一 个 变量 ，B(n) 的 大 小 一 般 为 数据 n 的 0.6 次 方 左右 ， 即 BCnD)=n0.6。 


chinaXiv:202205.00035v2 


(3) MIC 的 计算 


在 Python 中 我 们 可 以 借助 minepy 库 来 完成 MIC 的 计算 ， 本 文 将 avg_Sentimen 和 
avg_Price 作为 变量 计算 二 者 的 MIC， 其 结果 如 图 6 所 示 ; 


| 


图 6 avg_Sentimen 和 avg_Price 的 计算 结果 
MIC (avg Sentimen,avg Price) = 0.3806609398310775 


MIC 的 值 约 为 0.38， 说 明 avg_Sentimen 和 avg_Price 呈现 一 定 程度 的 相关 关系 。 
六 、 总结 


深度 学 习 的 不 断 发 展 ， 为 我 们 处 理 金融 问题 提供 了 一 个 很 好 的 框架 ,本文 也 表明 了 
深度 学 习 模 型 在 金融 领域 的 有 效 性 ， 基 于 此 搭建 出 来 的 BERT 模型 很 好 的 解决 了 
Word2Vec 等 深度 学 习 中 存在 的 一 词 多 义 的 问题 , 基于 金融 语 料 训练 出 来 的 BERT 模型 ， 
在 股票 预测 方面 有 较为 良好 的 表现 ， 在 传统 方法 对 股票 进行 的 基础 上 结合 情感 分 析 ， 能 
够 更 好 的 提高 预测 的 准确 率 , 此 外 对 投资 者 情绪 定量 指标 的 构建 以 及 投资 者 情绪 影响 股 
票 市 场 的 研究 , 有 利于 投资 者 在 投资 中 把 握 走势 , 依 此 获得 超额 收益 。 另 一 方面 , 同时 ， 
由 于 我 国 股票 市 场 存在 大 量 散 户 投资 者 , 投资 者 情绪 变动 对 股票 市 场 的 稳定 性 具有 一 定 
的 影响 ， 在 通过 深度 学 习 的 方法 进一步 探究 投资 者 情绪 对 股票 市 场 的 影响 机 制 ， 将 有 利 
于 国家 监管 部 门 和 政策 部 门 对 维持 股票 市 场 稳定 性 制定 更 加 合理 的 政策 方针 。 
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七 、 不 足 之 处 与 未 来 展望 


对 于 金融 实体 的 选取 ， 本 文选 取 了 股吧 作为 研究 的 对 象 ， 研 究 过 程 中 发 现 ， 股 吧 由 
于 其 自发 性 ， 数 据 噪声 非常 大 ， 不 利于 数据 的 拟 合 ， 会 对 深度 学 习 模 型 效果 产生 影响 ， 
后 期 希望 采用 财经 新 闻 文 本 数据 进行 研究 ， 一 方面 财经 新 闻 文 本 数据 有 着 统一 的 标准 ， 
男 一 方面 它 能 直接 反馈 上 市 公司 的 实际 情况 , 便于 与 市 场 拟 合 。 再 者 , 受 笔者 研究 条 件 、 
机 器 性 能 的 限制 ， 深 度 学 习 模 型 在 训练 过 程 中 不 能 达到 最 优 的 训练 效果 ， 后 期 可 以 考虑 
在 充足 的 经 费 支 持 下 ， 采 用 云 计算 等 方式 进行 研究 。 
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